Hierarchical Softmax

分层 softmax 损失函数用来处理标签集非常庞大的情况。
分层 softmax 将标签分解成一个树。每个标签都表示成这个树上的一个路径,这个树的每个节点处都训练一个Softmax分类器来在左和右分枝之间做决策。树的结构对于算法的最终结果影响很大,而且一般需要具体问题具体分析。